第5章リアルとバーチャルの融合―複合現実感―

from バーチャルリアリティ学

5.1 複合現実感

5.1.1 概念

Paul MilgramはMRをバーチャリティのスペクトルを包括する概念と位置付けた

https://gyazo.com/9acf6633d9388167c766832c52aa301a

A taxonomy of mixed reality visual displays (1994)

ARは現実にVRの情報を重畳表示する

技術的課題

VR環境と実環境の位置合わせ

時間遅れの除去

AVは現実の環境をリアルタイムにモデリングしてVR環境でインタラクション可能にすることで、VR環境のリアリティの向上や現実との連携をする

実世界の情報をVRに持ってくる基素.icon

技術的課題

実時間での処理

5.1.2 レジストレーション技術

基底現実とVR世界の三次元座標系を一致させることを位置合わせ（幾何学的レジストレーション）と言う

人間は網膜に投影された二次元情報から三次元世界の情報を認知している

VR世界の描画を行うためには、この投影を模倣できればいい

具体的には、人間の視覚の位置姿勢と投影変換特性を計測し、それに基づいて描画する

投影変換に必要な情報：内部カメラパラメータ

ズームなどで変化する

倍率の固定を前提としたシステムではシステム利用前のキャリブレーションで取得できる

ビューイング変換に必要な情報：外部カメラパラメータ

撮像系の位置姿勢が時々刻々変化する。外部カメラパラメータをどう取得するのかが位置合わせの重要課題

外部カメラパラメータの計測をtrackingと呼ぶ

trackingの手法

アウトサイドイン

環境に設置したセンサを利用

インサイドアウト

ハイブリッド（上記の組み合わせ）

これらそれぞれに対してカメラ・センサ・ハイブリッドの組み合わせがある

センサ方式

屋外

位置と姿勢を別々のセンサで組み合わせることが多い

位置：GPS

姿勢：慣性センサ

屋内

設置したカメラでマーカーを検出して位置・姿勢（アウトサイドイン）

磁気センサ・天井の参照てんを画像センサで検出（インサイドアウト）

慣性センサで姿勢情報を取得してカメラと組み合わせる（ハイブリッド）

カメラ方式

撮像系がカメラの場合、カメラ画像そのものを利用可能（カメラ方式）

カメラ映像を使用しないセンサ方式特別する

利点

センサが不要でシステムが簡単になる

画像合成には許容誤差の異方性がある（視界に対して鉛直方向はずれても分かりづらい）が、カメラの場合はズレ最小化基準で計測するので許容誤差を達成しやすい

撮像系とセンサの同期ズレがない

マーカー方式

四角形の中に画像が入ってるマークがよくつ八日われる

ARToolKitとかで使われるやつ

対象Xの三次元位置がわかっている場合、Xの画像内での位置が分かれば位置姿勢推定ができる

このとき3次元空間中で一直線上にない3点が利用できれば解が定まるが、複数解が出る

4点以上あれば一意に定まる（だから四角形）

3点だけでもやる方法はある

trackingの履歴を使って運動の連続性を使う

スムースさにもとづく解の適合度を使う

これ何基素.icon

正方形だと回転がわからないので内部にマークとかを書く

自然特徴方式

マーカー配置したくない時に、環境中の特徴を利用してトラッキングを実行する方式

2023年現在、スマホに載っているARアプリは大体この方式基素.icon

問題を分割すると

特徴抽出問題

特徴をコンピュータ上の3次元情報とどう紐付けるかの対応問題

ボトムアップ方式

画像から特徴を抽出→特徴をモデルと照合→誤照合除去→位置・姿勢計算

トップダウン方式

予測を使って、限られた範囲で対応する特徴を探索する方法

利点

計算コスト・誤対応を減らせる

欠点

急に位置・姿勢が変わるとトラッキングが失敗する

トラッキング履歴などから位置・姿勢予測→予測に基づき特徴を投影→投影位置で対応特徴候補を探索→位置・姿勢計算

技術

SIFT 回転やスケール変化に頑健、FAST

画像の特徴量との照合時間を削減するためにANN、KD-Tree、Radomized Treeを使う

誤照合が必ず起きるので除去するためにRANSACを使う

位置姿勢計算での誤照合対策として外れ値に対応可能なM推定を使う（最小二乗法だと誤差影響が大きくなる）

事前モデリングが手間なのでトラッキングとモデリングを同時に行うSLAM、PTAM

5.1.3 実世界情報提示技術

5.1.3.1 ARにおける映像合成

映像合成方式

optical see-through：光学コンバイナ（ハーフミラーなど）を使う

見え方が自然

video see-through：カメラの映像に計算機の映像を合成する

画像処理がやりやすい

図で目からの距離によって分類している基素.icon

HMDベースのシステム

ダモクレスの剣はoptical see-through

人の視覚能力に匹敵するHMDは実現困難でトレードオフがある

パイロットに地理情報を提示するなら：視野と輝度が重要。視距離が遠方なので立体視は不要

手術支援で患部のデータを提示したいなら：分解能と立体感が重要、視野は小さくても良い

など

HMDの光学系

網膜投影ディスプレイ

弱レーザー光で網膜に直接映像提示する

水晶体の屈折力を利用しないので、視距離に関わらず鮮明、屋外でも利用できる

射出瞳が小さい

接眼光学系によるHMD

市販のはほぼこれ

広視野角のために relay optical system

小型化のために偏心光学系を使うこともある

free-form prism

反射屈折光学系（catadioprtric system）がよく使われる

ハーフミラーと凸面鏡で構成

ホログラフィック光学素子によるHMD

波長選択性によって透過度が高く、広い視野を確保できる

射出瞳が小さい

頭部搭載型プロジェクタ

肉眼と光学共役な位置に配置したプロジェクタの映像をハーフミラーを通して環境に投影し、環境に設置した再帰性反射スクリーンに反射させて肉眼に映像を見せる

映像歪みが存在しない

特殊なスクリーンが必要

遮蔽矛盾を一部解決できる

https://www.youtube.com/watch?v=t-sVO1nviSY

遅延

ARの場合、遅延の影響が基底現実とバーチャル環境の位置ずれとして現れる

予防

予測フィルタ

フレームレスレンダリング

映像更新範囲の限定

あらかじめ広範囲を描画しておく

video see-throghの場合は、計算が終わってから一緒に画面を出せば時間差はなくせる

画像の表示自体は遅れるのでVR酔いの原因になる

焦点深度

視距離が固定されるのが普通

解決策

アイトラとレンズシフト機構を内蔵して実時間で視距離を変化させる

可変焦点ミラーを使って多数の視距離に時分割で映像提示

Butterschotchはこっち？

プロジェクションベースのシステム

プロジェクションマッピング

支線追従不要

対象の実物体の幾何形状や色、観察者の位置を考慮しない場合、観察者から歪んで見える

プロジェクタがピンホール投影モデル（ピンホールカメラモデルのこと？）で記述できて、投影レンズの主点から放射状に発生するradial distortionもないという仮定を置いて幾何的補正や測光的補正を行う

幾何的補正

必要なもの：物体の正確な形状と、観察者及びプロジェクタの位置

マルチパスレンダリングで補正して、観察者の視点から投影テクスチャマッピングしたシーンをプロジェクトで描画する

条件によって簡素化できる

例：投影面が平坦な場合homographyという射影関係を求めることでテクスチャマッピングなしに単一パスで補正できる

測光的補正

5.1.4 実世界モデリング技術

depthとRGBをマップして三次元モデルを作る処理の説明

レンジセンサ

LiDARみたいなやつ基素.icon

三角測量に基づくもの（ステレオ）

受動型

2枚の写真（とカメラの位置）3D座標を復元する

光源に依存する

能動型

光切断法

ラインレーザーを対象物体に投影して、画像上の点に対する視線とレーザー投影面の交点を求める

どうやるの基素.icon

1回の計測でレーザー1ライン分の計測ができるので、ミラーを使って2次元的にスキャンする

https://www.youtube.com/watch?v=46ftvQ-lxpU

特徴

精度が高い

密度が高い

スキャンが遅い

光速を利用するもの

ステレオ方式は距離が遠いと精度が落ちるので、マシな光速を使う

Time of Flight

パルスレーザーが物体表面に当たって跳ね返ってくる時間を計算

通常コアセンサは1点までの距離を計測するセンサなので、ミラーなどスキャンする

位相差方式

レーザーが跳ね返ってくる時間計測を高精度に行うのは難しいので、強度変調をかけて位相差によって距離計測する方法

変調波長内と波長外の距離を判別できないが、より低周波な成分を検出すればいいので

どういうこと基素.icon

使い分け

限られた空間のモデル化には位相差方式が有用

でかい空間はTime of Flightが有用

モデル化

全体形状が欲しい場合異なる視点から計測してくっつける

位置合わせにはInteractive Closest Point法が広く使われる

2つのデータの頂点の間で最近傍探索をして対応する頂点の距離が最小になる相対位置姿勢を求める

統合

zipper法

ボリューメトリックな手法

1つの符号付距離場表現した後にメッシュデータにする

空間を均等に区切ったボクセルが表現が行われるので、正則なメッシュ構造が得られる

符号付距離場表現する方法

ボクセル中心から距離画像への画像への最近傍点を探索し、重み付の平均距離として求める

ボクセルの値が物体表面の内側と外側で符号が変わる

実装しないといまいちわからない基素.icon

メッシュデータにする方法

マーチングキューブ法などでゼロの面に三角パッチを貼ってメッシュを得る

色彩データマッピング

カラー画像を形状データ貼り付けたい

このためには、画像の画素と形状データの対応が必要

6個以上の対応点がある場合

最小二乗法などによって内部及び外部パラメータを同時に求める

対応点が未知（＆カメラの内部パラメータは既知）の場合

形状データとカラー画像のエッジを用いて推定する

最近傍点が正しい対応点とは限らないので繰り返し計算して最適解を求める

5.2 ウェアラブルコンピュータ

5.2.1 概念

常時着用するコンピュータ（スマホよりもっと意識しないようなものを意図している）

Steve Mannが考える特徴

恒常性 consistancy 常に動作していて、いつでも利用できる

増幅性 augumentation ユーザーの作業を支援する

介在性 meditation ユーザーと外界のインタフェースとして機能する

プライバシー保護、情報フィルタ

雑想 2023/02/08 VRの価値#63e3fd92774b170000330f0bこれだ基素.icon

5.2.2 情報提示技術

種類

装着者自身に対する情報提示

単眼型HMD

この辺りは情報が古い（2012年以前）基素.icon

MciroOptical, SV-6(2003)

https://g.co/arts/u5wm5vrQFLi2pAuH9

オリンパス, Eye-Trek

https://www.youtube.com/watch?v=uMIlzvqUR04

Xybernaut, Mobile Assistant

MobileHackerz再起動日記: ザイブナーのウェアラブルコンピュータ MA-IV

骨伝導スピーカー

複雑なハードウェアを用いないインタフェース

背中に振動子をマトリックスに配置して触覚で方位情報を提示

触覚の仮現運動特性を利用

牽引力を錯覚させる

知覚の非線形性を利用

嗅覚ディスプレイ

装着者の周囲に対する情報提示

衣服を媒介とした表現

プラスチック光ファイバ POF を使った織物

2002年3月にフランステレコムの研究グループがビットマップ表示対応のPOFをつかったフレキシブルスクリーンを発表

POFを大きく屈曲数と光が漏れ出す特性を利用

Philips Lumalive

https://www.youtube.com/watch?v=gk3vUzXdnWM

衣服内配線

5.2.3 入力インターフェース技術

テキスト入力

キーボード

キーを小さくする場合、押し間違いの誤り補償機能が必須

Apple says it has fixed iPhone autocorrect with iOS 17 - 9to5Mac

ジェスチャ

手話

指にセンサを取り付けて振動検知

文字認識・音声認識

Twiddler

ソフトキーボード

HMDのディスプレイは画像処理性のがボトルネックで空間分解能が低くなることが多いのでキーボードの数を減らしたりする

現代のHMDには当てはまらない基素.icon

ノンバーバル情報入力

明示的なもの

ウェアラブルカメラの手の画像認識

ProCamを用いた認識（アクティブライティング）

距離を得るための投影光を含む映像を撮影するので精度が出やすい

読んでも腹落ちしない基素.icon

慣性センサ

無意識的なもの

社会受容性が普及のポイント

5.2.4 コンテキスト認識技術

コンテキストがわかると可能性の枝刈りができて便利

実世界のコンテキスト把握で有用かつ技術シーズが揃っているのは測位

GPS

利点：利用者がインフラ整備や運用コストを考えなくていい

30個前後の衛星で地球規模の測位が可能

欠点

空が遮蔽された場所では使えない

遅延

マルチパスの影響

超音波、電波、光通信（これらを総称してLocal Positioning System）

UWBはマルチパスに比較的強い

WiFiの基地局を収集して利用する方法がある

幾何学的レジストレーション

self-contained sensorをつかっとPedestrian Dead Reckoning

センサを足元に装着する場合

足が着地した際のゼロ速度更新 ZUPT によって多様な歩行動作に1つのモデルで(?)対応できる

壊れやすい

腰部に装着する場合

歩行速度を積分する

個人差を吸収できるようにモデル構築する必要あり

ジャイロのドリフト、磁場の歪み、外乱などのセンサの欠点を補償する必要あり

累積誤差は無くならず、絶対位置を与える必要があるので実際には他の手法と組み合わせる

上記の組み合わせやマップマッチング

行動認識

位置や姿勢以外にも色々コンテキスト情報を取得できる

操作履歴

手の動き、視線

eye tracking

動作

SVMやAdaBoostなどの機械学習が広く適用されている

情報が古い基素.icon

心理状態・生理状態

例：発汗をトリガとしたウェアラブブルカメラの映像要約

環境

一般物体認識、顔認識など

5.3 ユビキタスコンピューティング

5.3.1 概念

ubiquitous = 偏在する

現実世界のあらゆるところにコンピュータやネットワークによる情報処理機能を与えて、至る所で支援を受けることができるという概念

PARCのMark Weiserが提唱

Mark Weiser: "The Computer for the 21st Century" (1991)

類義語

pervasive computing

全面的に広がる

dissapearing computer

計算機やネットワークが目立たせずに後ろで支える存在になるというような意味

5.3.2 ユビキタス環境構築技術

ユビキタスインフラ

ハードウェア

実世界の情報を利用するためには、あらゆる場所やものの状況をセンシングして伝達する必要がある

このような無線ネットワークを無線Personal Area Networkという

IEEE802.15で標準化が行われている

Bluetooth

省電力性とネットワークのスケーラビリティに難あり

この後BLEがひろくつかわれている基素.icon

zigbee

最高通信速度が低速（250kbps）だが電池で数ヶ月から数年動作できる

ノードが65535個接続できる

サポートするネットワーク構造：スター型・メッシュ型・ツリー型

UWB

干渉を起こさない程度に電力を抑えて、広い帯域を使って通信をする（最大100Mbps)

ソフトウェア

課題

場所を移動する

リアクティブ型

通信を始める際に経路探索

プロアクティブ型

あらかじめ経路情報を交換して通路を決定する

センサーの位置情報を簡易に取得する方法

位置情報が既知のノード（ランドマーク）を利用して、複数のランドマークの位置情報の重心を位置とするCentroid測定

ランドマークからの情報を受信するまでに経由したノード数を元に、1ホップにおける平均距離を見積もってランドマークからの距離を測量 DV-Hop測定

電池が切れるかもしれない

TDMA

動作タイミングを順番管理

CSMA/CA

早い者勝ち

どういうこと？基素.icon

消費電力を均一にする手法

電波強度を適切にして長寿命化する手法

インタフェース

可視光通信インタフェース

人の目には知覚できない速さで点滅させて情報を伝える

可視光通信システム

送信側

LED

DLPプロジェクタ

各画素を表示するマイクロミラーはkHz単位で制御できるので画素単位で情報を埋め込むことができる

受信側

フォトダイオード

フォトトランジスタ

CMOSイメージセンサ

フォトセンサの2D配列したようなもの